其他
FlagEval 2月榜|新增多个MoE模型及InternLM2系列模型评测结果
本期FlagEval大语言模型榜单评测了4个 MoE 模型:
Mixtral-8x7B系列基座模型及SFT模型:由有着“欧洲OpenAI”之称的创业公司 Mistral AI 发布,是首个在多项评测基准上超越Llama2-70B的MoE模型,开启大模型MoE实践新风向,同时也催生了一系列MoE模型“百花齐放”。
SOLARC-MOE-10.7Bx6:由韩国Markr AI团队基于Upstage AI团队发布的SOLAR系列开源模型打造,SOLAR模型曾在Hugging Face OpenLLM leaderboard上排名第一。
DeepSeek-MoE-16B-base:由国内深度求索&幻方量化团队发布,该团队在近期陆续发布了DeepSeek-67B、DeepSeek-7B系列模型。
评测结果如下:
1. 基座模型
Mixtral-8x7B-v0.1中英文客观评测准确率为 69.2%,接近 Qwen-14B。具体而言,英文客观评测准确率为76.8%,优于ChatGLM3-6B,略弱于 Llama-2-70B;中文客观评测准确率为65.4%,接近Yi-6B-200K。
由深度求索&幻方量化发布的DeepSeek-MoE-16B-base整体准确率(45.6%)弱于DeepSeek-7B(54.4%)。
2. SFT 模型
FlagEval 大语言模型 2月榜单
1. 准确性指标:
InternLM2-20B 基座模型表现亮眼,综合准确率达到 74.6%,与 Qwen-72B 相当;对话模型 InternLM2-20B-chat 客观+主观准确率 68.2%。
InternLM2-7B基座模型在 10B以下参数级模型中,排名第二,仅次于 ChatGLM3-6B-base;对话模型 InternLM2-chat-7B 在同参数级模型中排名第一,客观+主观综合准确率 64.7%。
2. 鲁棒性指标:
基座模型 Base Model
有监督微调模型 SFT Model